max rank | avg. rank | sentence |
---|---|---|
85 | 38.5714 | Харин хоёр дахь нь « улсын хот » юм. |
209 | 119.0000 | Гэвч түүний төрсөн он зэрэг нь тодорхой бус. |
209 | 93.2500 | Түүний хэдэн онд төрсөн нь тодорхой бус байдаг. |
278 | 114.4286 | Гэвч тэдний бие маш сайн байсан юм. |
330 | 140.0000 | Гэхдээ гол 2 үзэл байдаг. |
340 | 147.7143 | Үүнээс гадна түүний хэд хэдэн дуу байгаа. |
351 | 105.9091 | Их Монгол улсын төрийн үндсэн гол хууль нь “Их засаг ” байв. |
388 | 206.0000 | Хятад, монгол хүмүүс байдаг. |
398 | 142.5000 | Зарим үед хаан гэж бичсэн байдаг. |
423 | 252.7500 | Тэрээр Английн шигшээ багт ганц тоглолтонд оролцож байжээ. |
432 | 109.5556 | Хэрэв мөн бол биш, биш бол мөн болж байна. |
448 | 163.8750 | Улсын албан ёсны хэл нь монгол хэл байна. |
469 | 166.8000 | Ийм учир бас байсан юм. |
473 | 216.6667 | Германы анхны хөгжмийн дээд сургууль юм. |
480 | 152.6667 | Мөн хэд хэдэн том нуур бий. |
520 | 166.0000 | Энэ л түүнд хэрэгтэй байв. |
551 | 209.6000 | Энэ бол энгийн загвар юм. |
554 | 151.2000 | Азийн хамгийн том орон юм. |
559 | 326.2857 | Тухайн үедээ түүний байгуулсан 100 сая ам. |
594 | 225.0000 | Монгол улс 2006 оноос оролцож эхэлсэн. |
599 | 220.3333 | Мөн цагийн ажил хийдэг байсан юм. |
611 | 114.7143 | Энэ нь тогтмол байна гэсэн үг юм. |
612 | 200.8750 | Энэ бол шинэ цагийн бас л нэг боломж. |
614 | 349.3333 | Монголын эртний түүх соёлын зарим асуудал. |
640 | 365.2000 | Үүнийг дараах байдлаар бичиж болно. |
642 | 263.2000 | Тус арал өөр хэдэн нэртэй. |
671 | 502.8000 | Япон улсад амьдарч, тоглолт хийдэг. |
701 | 282.1000 | Тэрээр Японы түүхэн дэх 8 эмэгтэй эзэн хааны нэг билээ. |
716 | 321.2000 | Тэдний дотор нэг эмэгтэй байсан. |
716 | 335.4000 | Тэдний ихэнх нь лам нар. |
The maximum word rank of a sentence is by definition the rank of the rarest word in the sentence. If it is low, all words in the sentence are of high frequency. For this reason the table of the sentences with least maximum word number might be of interest. In the table, we see the corresponding sentences with a minimum length of 40 characters.
The over all distribution of the maximum rank in all sentences of the corpus is shown in a diagram with log-scaled x-axis.
The sentences in the table described above are of interest because they are usually easy to understand. The distribution may give insights into the corpus and may give parameters for language comparison.
While the distribution might be deduced from a small corpus, the sentences in the table are rare and a large corpus will give more impressive results.
Table data:
select max(w_id)-100 as m, avg(w_id)-100 as a, s.sentence from sentences s, inv_w i where s.s_id=i.s_id and length(sentence)>40 and i.w_id>100 group by s.s_id order by m limit 30;
Distribution data;
select m, count(*) from (select 100* round((max(w_id)-100)/100) as m from sentences s, inv_w i where s.s_id=i.s_id and i.w_id>100 group by s.s_id) aa group by m;
Explain the distribution, especially the increase in its right part.
4.5.2.2 Average word rank in sentence
4.5.2.3 Sentences consisting of many low frequency words I
4.5.2.4 Sentences consisting of many low frequency words II
4.5.2.5 Sentences consisting of short words only I
4.5.2.6 Sentences consisting of short words only II
4.5.2.7 Sentences consisting of long words only I
4.5.2.8 Sentences consisting of long words only II